如今,基础模型已成为人工智能中的基本基础设施之一,铺平了通往通用情报的方式。但是,现实提出了两个紧急挑战:现有的基础模型由英语社区主导;用户通常会获得有限的资源,因此不能总是使用基础模型。为了支持中文社区的发展,我们介绍了一个名为Fengshenbang的开源项目,该项目由认知计算与自然语言研究中心(CCNL)领导。我们的项目具有全面的功能,包括大型预培训模型,用户友好的API,基准,数据集等。我们将所有这些都包装在三个子项目中:风水次模型,风水框架和狂热基准。 Fengshenbang的开源路线图旨在重新评估中国预培训的大型大型模型的开源社区,促使整个中国大型模型社区的发展。我们还希望构建一个以用户为中心的开源生态系统,以允许个人访问所需的模型以匹配其计算资源。此外,我们邀请公司,大学和研究机构与我们合作建立大型开源模型的生态系统。我们希望这个项目将成为中国认知情报的基础。
translated by 谷歌翻译
最近,图形神经网络(GNN)已被广泛用于开发成功的推荐系统。尽管功能强大,但基于GNN的建议系统很难附上明显的解释,说明为什么特定项目最终在给定用户的建议列表中。确实,解释基于GNN的建议是独特的,而现有的GNN解释方法是不合适的,原因有两个。首先,传统的GNN解释方法是为节点,边缘或图形分类任务而不是排名而设计的,如推荐系统中。其次,标准的机器学习解释通常旨在支持熟练的决策者。相反,建议是为任何最终用户设计的,因此应以用户理解的方式提供其解释。在这项工作中,我们提出了润滑脂,这是一种新的方法,用于解释任何基于黑盒GNN的建议系统提供的建议。具体而言,Grease首先在目标用户项目对及其$ L $ -HOP社区上训练替代模型。然后,它通过找到最佳的邻接矩阵扰动来捕获足够和必要的条件,分别推荐一个项目,从而生成事实和反事实解释。在现实世界数据集上进行的实验结果表明,油脂可以为流行的基于GNN的推荐模型产生简洁有效的解释。
translated by 谷歌翻译
节点分类和图形分类是两个图形学习问题,分别预测节点的类标签和图形的类标签。图的节点通常代表现实世界实体,例如,社交网络中的用户或文档引用网络中的文档。在这项工作中,我们考虑了一个更具挑战性但实际上有用的设置,其中节点本身是图形实例。这导致了层次图的观点,该视角在许多领域(例如社交网络,生物网络和文档收集)中产生。我们在层次图中研究节点分类问题,其中“节点”是图形实例。由于标签通常受到限制,我们设计了一种新型的半监督溶液,名为Seal-CI。 Seal-CI采用了一个迭代框架,该框架需要轮流更新两个模块,一个模块在图形实例级别,另一个在层次图级别上进行。为了在不同级别的层次图之间执行一致性,我们提出了分层图共同信息(HGMI),并进一步提出了一种使用理论保证计算HGMI的方法。我们证明了该层次图建模的有效性以及在文本和社交网络数据上提出的密封CI方法。
translated by 谷歌翻译
垂直联合学习(VFL)是一种隐私的机器学习范式,可以从以隐私性的方式从不同平台上分布的功能学习模型。由于在实际应用程序中,数据可能包含对公平敏感特征(例如性别)的偏见,因此VFL模型可能会从培训数据中继承偏见,并对某些用户组变得不公平。但是,现有的公平ML方法通常依赖于对公平敏感特征的集中存储来实现模型公平,通常在联合场景中不适用。在本文中,我们提出了一个公平的垂直联合学习框架(FAIRVFL),可以改善VFL模型的公平性。 FAIRVFL的核心思想是根据分散的特征字段以隐私的方式学习样本的统一和公平表示。具体而言,每个具有不敏感功能的平台首先从本地功能中学习本地数据表示。然后,将这些本地表示形式上传到服务器,并将其汇总到目标任务的统一表示形式中。为了学习公平的统一表示形式,我们将它们发送到每个平台存储公平性敏感的功能,并应用对抗性学习,以从偏见的数据继承的统一表示形式中消除偏见。此外,为了保护用户隐私,我们进一步提出了一种对抗性对手学习方法,以从服务器中的统一表示形式中删除隐私信息,然后再将其发送到保持对公平敏感功能的平台。在两个现实世界数据集上进行的实验验证了我们的方法可以通过用户隐私受到良好保护有效地改善模型公平性。
translated by 谷歌翻译
在这封信中,我们根据自回归模型探索了生成图像隐写术。我们提出了像素-Stega,它实现了与自回归模型和算术编码算法隐藏的像素级信息。首先,利用自回归模型PixelCNN ++之一来产生每个像素的显式条件概率分布。其次,通过基于算术编码来编码到通过定象采样(StegoSppling)的像素的选择。我们对灰度和彩色图像数据集进行了定性和定量评估。实验结果表明,Pixel-STEGA能够根据像素的熵自适应地嵌入秘密消息,以实现高嵌入容量(高达4.3bpp)和几乎完美的难以察觉(检测精度约为50%)。
translated by 谷歌翻译
文本摘要方法一直引起了很多关注。近年来,深入学习已被应用于文本摘要,结果表明是非常有效的。然而,基于深度学习的大多数基于深度学习的文本摘要方法需要大规模数据集,这很难在实际应用中实现。本文提出了一种基于多轮计算的无监督的提取文本摘要方法。基于定向图算法,我们改变了一次计算句子排名的传统方法,以多轮计算,并且摘要句子在每一轮计算后动态优化,以更好地匹配文本的特征。在本文中,实验在四个数据集中进行,每组单独包含汉语,英文,长短和短文本。实验结果表明,我们的方法具有比基线方法和其他无监督方法更好的性能,并且在不同的数据集中是强大的。
translated by 谷歌翻译
建议绑架自然语言推理任务($ \ alpha $ NLI)以推断出原因与事件之间的最合理的解释。在$ \ Alpha $ NLI任务中,给出了两个观察,并要求最合理的假设从候选人中挑出。现有方法将每个候选假说之间的关系进行分别统一地惩罚推理网络。在本文中,我们认为不必区分正确假设之间的推理能力;同样,在解释观察的原因时,所有错误的假设都会有所贡献。因此,我们建议小组而不是排名假设和设计本文中称为“联合软制焦点”的结构损失。基于观察,假设通常与语义相关,我们设计了一种新颖的互动语言模型,旨在利用竞争假设之间丰富的互动。我们为$ \ alpha $ nli命名这个新型号:具有结构丢失(IMSL)的交互式模型。实验结果表明,我们的IMSL已经在罗伯塔大型预磨削模型上实现了最高性能,ACC和AUC结果分别增加了约1 \%和5 \%。
translated by 谷歌翻译
变形金刚是文本理解的强大模型。然而,由于其二次复杂性对输入序列长度的二次复杂性效率低下。虽然有很多关于变压器加速的方法,但它们仍然效率低于长序列或不够有效。在本文中,我们提出了FastFormer,即基于添加剂关注的高效变压器模型。在FastFormer中,我们首先使用添加剂注意机制来模拟全局上下文,而不是在令牌之间建模的成对相互建模,而不是建模。然后,基于与全局上下文表示的交互,进一步转换每个令牌表示。以这种方式,FastFormer可以实现具有线性复杂性的有效上下文建模。关于五个数据集的广泛实验表明,FastFormer比许多现有的变压器模型更有效,同时可以实现可比或甚至更好的长文本建模性能。
translated by 谷歌翻译
变形金机对文本建模很重要。但是,由于输入文本长度的二次复杂性,它难以处理长文件。为了处理这个问题,我们提出了一种分层交互式变压器(高变压器),用于高效且有效的长文档建模。高变压器模型以分层方式模型,即首先了解句子表示,然后学习文档表示。它可以有效地降低复杂性,同时在每个句子的建模中捕获全局文档上下文。更具体地说,我们首先使用句子变压器来学习每个句子的表示。然后我们使用文档变形器从这些句子表示中模拟全局文档上下文。接下来,我们使用另一个句子变换器来使用全局文档上下文增强句子建模。最后,我们使用分层汇集方法获取文档嵌入。三个基准数据集的广泛实验验证了长文档建模中高变压器的效率和效力。
translated by 谷歌翻译
Current natural language processing (NLP) models such as BERT and RoBERTa have achieved high overall performance, but they often make systematic errors due to bias or certain difficult features to learn. Thus research on slice detection models (SDM) which automatically identifies underperforming groups of datapoints has gradually caught more attention, which aims at both understanding model behaviors and providing insights for future model training and designing. However, there is little systematic research on SDM and quantitative evaluation of its assessment for NLP models. Our paper fills this gap by proposing "Discover, Explanation, Improvement" framework that discovers coherent and underperforming groups of datapoints and unites datapoints of each slice under human-understandable concepts; it also provides comprehensive evaluation tasks and the corresponding quantitative metrics, which enable convenient comparison for future works. Results show that our framework can accurately select error-prone datapoints with informative semantic features that summarize error patterns, based on which it directly boosts model performance by an average of 2.85 points based on trained models without tuning any parameters across multiple datasets.
translated by 谷歌翻译